iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 5
0

接續上一篇提到的信息熵
我們如何用它來衡量兩個模型之間的差異


首先來個小測試
以下誰是王世堅...(我真心覺得兩個都是...)
臉盲

在做上面的測試時
你是不是有這樣的過程

  • 1.想著真正的王世堅的臉
  • 2.定位王世堅的某部位(如:眼睛),比對測試中的人是否相差很多
  • 3.重複2,直到確認

如果有如上述的過程經驗
則用熵衡量兩個模型之間的差異
其實就跟這個過程差不多


假設我們有 2 個模型函數
放入相同的資料後得到兩個模型結果的分布
若現在只能看的到模型結果的分布
想問若以 為準,則 差多少呢?

首先我們先想著 的臉,也就是
依次鎖定它的部位 然後跟 比較並加總結果
最後相當於是在比較兩個分配所提供的信息熵的差
也就是

最後可以化簡成

上述這個公式稱為「相對熵」(Relative Entropy)
或是「KL散度」(Kullback-Leibler divergence)
記為 表示以 為準,則 的差異

對了,
需要注意一下KL散度沒有對稱性,也就是說

畢竟以 為準與以 為準是不一樣的


目前已經可以評估兩個模型之間的差異
所以要挑選最好的模型函數
就要最小化
而這步驟竟然與以前很常聽到的 MLL 是等價的?


上一篇
[Day 3]信息熵舉例
下一篇
[Day 5]相對熵舉例
系列文
主管可能很機車,但數學不會,數學不會就是不會:盡學渣之力說數學原理30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言